基于语音的任务没有关系抽取,而基于关系抽取的任务又只关注从文本到实体和关系,没有考虑文本的其他来源,因此会在语音转文本的过程中引入额外的误差。03语音关系抽取我们将语音关系抽取定义为一个联合实体和关系抽取任务,它将一段语音作为输入,并生成一组形式为<实体1,关系,实体2>的关系三元组作为输出。输入: Speech Instance (.wav)输出: “[<entity1,relation,entity2>, …]”例子:' Big Bang ' physicist Andrew Lange dead at 52 .—> “[< Andrew Lange, person title, physicist >, < Andrew Lange, person age, 52 >]”1. 任务难点面向语音数据的端到端式关系抽取的关键问题就是让计算机学会通过输入语音数据,输出正确的实体和相应的关系。难点一:长度限制。基于文本的深度学习模型往往有有限的最大输入长度,如BERT的最大长度是512,而语音数据的向量很长,每秒一般有16000帧,几秒的语音向量长度能轻易达到十万级别。如何抽取语音特征,缩短向量长度是需要解决的问题。难点二:跨模态对齐。模态指数据的存在形式,如文本、图像、音频、视频等等。由于语音和文本是两个不同的模态,语音的词向量和文本的词向量的表示往往并不相同,如何将两者相结合是一个难点。2. 数据集构建由于没有现成的关系抽取语音数据集,本文从现有的文本关系抽取语料库中合成语音数据。语音合成分为两个步骤,为文本转频谱和频谱转语音。本文两个步骤均使用预训练模型。文本转频谱的步骤本文选择3个不同的预训练模型,分别是Glow-TTS,Speedy-Speech-WN和Tacotron2-DCA,频谱转语音的步骤本文选择2个不同的预训练模型,分别是Multiband-MelGAN和WaveGrad,将这五个模型排列组合,并人工比较生成的语音效果,如图3所示。最终使用的模型是文本转频谱模型Tacotron2-DCA和声学模型MultiBand-MelGAN,声音效果最为自然。3. 语音关系抽取方法(1)管线方法管线方法是将语音数据先翻译为文本,然后利用文本进行关系抽取。语音识别模型本文选择了Wav2Vec 2.0[4]的预训练模型“wav2vec2-large-960h-lv60-self”处理语音,并使用T5的预训练模型“t5-small-wav2vec2-grammar-fixer”处理生成的文字,添加标点并改变大小写。关系抽取本文选择了文本端到端关系抽取模型SpERT[5]。训练文本关系抽取模型需要有标注的训练集,SpERT需要的是实体和其在文本中对应的跨度信息,关系和其对应的实体。由于翻译后的文本可能会出现单词数量的变动,导致原来的跨度信息并没有标注到真实的实体,因此这里采用了相似度匹配算法来重新标记数据集。(2)端到端方法仿照Gerard等人[7]提出的机器翻译模型的框架,我们构建了一个端到端式语音到文本模型SpeechRE,由两个预训练模型和长度适配器组成,如图4所示。模型的输入是语音数据,输出含有关系信息的线性化序列。我们的方法结合了Wav2Vec 2.0编码器和BART[6]解码器。当结合这两个模型时,在目标句子长度和编码器输出之间存在长度差异。为此,有必要使用一个耦合模块来缩短编码器输出,即长度适配器。04实验1. 数据集在合成的语音关系抽取数据集上进行了实验,包括适用于基于文本关系抽取的基准数据集CoNLL04和TACRED数据集。(1)CoNLL04CoNLL04数据集由《华尔街日报》和美联社的新闻文章组成。CoNLL04定义了4种实体类型,包括位置(Loc)、组织(Org)、人(Peop)和其他(Other),以及5种关系类别,即坐落在(Locate_In)、基于组织的在(OrgBased_In)、住在(Live_In)、杀死(Kill)和工作在(Work_For)。CoNLL04 数据集的数据划分如表1所示。(2)TACREDTACRED是一个大规模的关系抽取数据集,其中包含106264个示例,这些示例来自年度TAC知识库群体(TAC KBP)挑战中使用的语料库的新闻线和Web文本。TACRED中的示例涵盖TAC KBP挑战中使用的41种关系类型,如果没有建立定义的关系,则标记为no_relation,其中79.5%的示例被标记为no_relation。这些示例是通过组合来自人工注释创建的。除去no_relation,TACRED数据集的划分如表2所示。
如表 3 和表 4 所示,使用语音作为数据的模型和文本的差距较大。分析发现,主要是由于命名实体识别的效果较差,这也是我们所预期到的现象。关系抽取任务一般都有自己相应的领域,因此会有许多领域内的实体需要进行抽取,而这些实体往往都是不易翻译的单词,如人名和地名,这些会导致命名实体识别的效果很差,进而影响关系抽取的效果。在CoNLL04数据集上,我们提出的模型效果已经超过了管线方法。然而,在TACRED数据集上,离管线方法还有一定的差距,分析原因如下:TACRED数据集包含37000条左右的训练数据,总时长80小时以上。可是,TACRED数据集有80%左右的数据标记为没有关系,除此之外拥有41个不同的关系,并且各个关系的数量差别较大,有的关系数量过多,有很多关系的数量很少,形成长尾分布,如图5所示。长尾关系对模型来说是巨大的挑战,语音模型对数据更为敏感。并且,经过对CONLL04数据集的分析发现,很多同义句都有相同的实体和关系,这也降低了语音关系抽取的难度。(2)不同数据量的模型效果对比提高模型的数据量意味着数据增强,然而,语音领域里的数据增强和关系抽取不太相同。翻译任务的数据增强方法往往是直接加数据,然而关系抽取有自己的领域,如果两个数据集的领域不相同,很容易让模型变得混乱。由于CoNLL04数据集本身数据较少,不适合做实验,这里选择了TACRED数据集关系数量最多的五个关系进行实验,分别划分了20%,40%,60%,80%的数据量和原数据集进行对比。每次采样均在上一次采样的基础上进行,保证了训练数据的一致性。由于命名实体识别效果普遍较差,这里展示的是关系分类的 F1值结果,仅仅统计关系是否分类准确,可以看出模型是否学习到了文本中蕴含的关系信息。图 6 TACRED前五个关系不同数据量关系分类F1值趋势如图 6 所示实验结果表明,数据量的增强对文本没有明显影响,而对语音模型有着明显的提升。这是基于语音的模型和基于文本模型的差别,语音模型需要大量的训练数据支撑,为了获得更多的训练数据,可以采用数据增强的方法。虽然目前在TACRED上本文提出的模型结果不如管线方法,但是可以推测,在数据量足够多的情况下,端到端式语音关系抽取模型的表现会优于管线式语音关系抽取方法。(3)错例分析我们对模型预测错误的情况进行分析。分析中发现经常会出现大写小不同和人名的完整度不同,人物的名字是最难识别准确的实体,尤其容易出错。除了实体预测错误,另一种预测错误的情况是预测结果不在文本之中。以下是一个例子:原文本:"Another segment shows the famous sequence of Lyndon B. Johnson being sworn in as president; still another the television footage of Jack Ruby shooting Oswald."正确三元组:<Jack Ruby, Kill, Oswald>预测三元组:<Lee Harvey Oswald, kill, President John F. Kennedy>可以看出,出现的问题是模型预测出了语音中没有提到的实体或关系。这里文中讲的杰克·鲁比刺杀肯尼迪遇刺案嫌犯李·哈维·奥斯瓦尔德,可是预测的三元组确是李·哈维·奥斯瓦尔德刺杀了肯尼迪。虽然预测结果并没有在文中提到肯尼迪,但两者确实有所关联。经过分析,可能是由神经网络记忆导致的。分为以下几种情况:神经网络的记忆力很强。神经网络记住了训练集中的实例,在生成时找不到生成的映射关系,因此直接生成出现过的实例。这种情况的原因可能是训练数据量太小,而模型太强,模型没学习到怎么抽取,但是学习了怎么背题。这种情况在生成模型格外容易遇到。神经网络在“开小差”。虽然模型生成三元组的现实情况是对的,但是没有在训练集出现过。比如文本在讨论美国白宫,预测是美国总统是拜登。这种情况的原因是模型可能在预训练里遇到过类似的语句,而在生成序列时模型可能在“开小差”,回想起了之前学过的东西。在生成式模型中,基于文本的生成模型可以在文本中选词复制,避免生成文本中没有出现的单词,但是语音信息没有相应的文本,因此语音模型更容易“开小差”。这种情况多来自于跨模态模型。05总结与展望1. 工作总结传统的面向语音的关系抽取一般需要通过语音识别技术将语音数据转录为文本,然后进行基于文本的关系抽取,这一流程可能会引起误差累积问题。为了解决上述问题,我们提出了一种端到端式语音关系抽取方法,经过实验,我们提出的方法在CoNLL04数据集上已经超过了管线方法。虽然在TACRED数据集上离管线方法还有一定差距,但是经过分析,在增加数据量的情况下,我们提出的模型仍有望超过管线方法。2. 工作展望这个工作是对于语音关系抽取任务的首次探索,在目前模型的效果上,后续工作有很大的提升空间。未来将会在我们提出的端到端式语音关系抽取模型的基础上作出以下改进和探索:进行远程监督。基于这样一个假设:如果两个实体在知识库中存在某种关系,则包含该两个实体的非结构化句子均能表示出这种关系。因此,对于一个关系的两个实体,在网络中寻找拥有对应两个实体的文本,可以认为文本中含有相同的关系,直接将文本和三元组添加到训练集中,这样做的好处是可以快速拥有大量示例。语音多样性。目前使用的语音数据由人工合成,生成的语音声音较为一致。可以在生成语音的时候生成不同性别不同年龄的声音,或者使用真实语音数据并通过获得伪标签的形式加入进来。结合语音和文本进行关系抽取。使用多模态学习的方法,设计一个编码器,让模型既能接受文本也能接受语音,还可以同时接受文本+语音。从我们的工作还可以引申出很多其他的工作,包括但不限于:
[2] Nguyen D Q, Verspoor K. End-to-end neural relation extraction using deep biaffine attention[C]. European Conference on Information Retrieval. Springer, Cham, 2019: 729-738.
[3] Rodríguez E, Ruíz B, García-Crespo Á, et al. Speech/speaker recognition using a HMM/GMM hybrid model[C]. International Conference on Audio-and Video-Based Biometric Person Authentication. Springer, Berlin, Heidelberg, 1997: 227-234.
[4] Baevski A, Zhou Y, Mohamed A, et al. wav2vec 2.0: A framework for self-supervised learning of speech representations[J]. Advances in Neural Information Processing Systems, 2020, 33: 12449-12460.
[5] Eberts M, Ulges A. Span-Based Joint Entity and Relation Extraction with Transformer Pre-Training[M]. ECAI 2020. IOS Press, 2020: 2006-2013.
[6] Lewis M, Liu Y, Goyal N, et al. Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension[J]. arXiv preprint arXiv:1910.13461, 2019.
[7] Gállego G I, Tsiamas I, Escolano C, et al. End-to-End Speech Translation with Pre-trained Models and Adapters: UPC at IWSLT 2021[J]. arXiv preprint arXiv:2105.04512, 2021.
[8] Wang P, Su Y, Zhou X, et.al. Speech2Slot: A Limited Generation Framework with Boundary Detection for Slot Filling from Speech. INTERSPEECH 2022: 2748-2752.